15. 発展的学習によせて
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
15.1. 総括と展望
このまま検定の一般理論の知識・理解がない状態で、さらなる心理統計法の学習を進めても困ったことは生じない
上級の心理統計モデルではもともと有意性検定が重視されていない 有意性検定は比較的初歩の心理統計モデルにおいて重視されてきた
「平均の推測」「独立した2群の差」「相関係数」「対応ある2群の差」「実験計画法」「比率・連関」
しかし、モデルが複雑になると、その複雑さの度合いに応じて、次第に母数推定が重視される傾向が生じる
「回帰分析」
因子分析などさらなる心理統計の領域ではこの逆転傾向はますます強まる
そもそもbigデータ解析では端からまったく有意性検定は使われない
初心者にはあって邪魔になる知識というものがある
ただし検定を使った古い論文等が読めないのは困るので、過渡期には、検定の手続き的知識だけは暗記する必要があろう
15.2. 相関関係の分析
その存在をとりあえず仮定することによって複雑に込み入った現象を比較的単純に理解することを目的にした概念
構成概念を表現するための数理的表現
15.2.1. 因子分析法
潜在変数モデルは心理統計学の分野で高度に発展している
潜在変数モデルの中で心理学研究に最も利用される手法が因子分析法 少数の構成概念(因子)によって多変量データの状態を説明するための潜在変数モデル 構成概念に関する心理学的仮説がなくても分析が可能
サーストンが因子分析モデルを完成させた(1930年代) 心理学的な仮説を利用して因子分析を行う
https://gyazo.com/3b4af00680c228bc6b2f80e5c01f7895
パス図では、観測される変数は四角形で表現され、$ v_1から$ v_5まで5つ描かれている
因子分析では構成概念を因子(factor)と呼び、パス図には$ f_1と$ f_2の2つが描かれている 影響関係を矢印で表現する
構成した分析モデルの意図を第三者に伝えやすくなる
このため因子分析に限らず、多くの潜在変数モデルではパス図による表現が利用される
15.2.2. パス解析
たとえば図15-2のようにパス図によってパス解析も表現できる
https://gyazo.com/1b58b8d94e69634540c64abb964ba5d4
パス図の中で単方向の矢印を1度も受け取っていない変数
モデルの外側で生まれた変数
$ v_1と$ v_2
単方向の矢印を受け取っている変数
$ v_3と$ v_4と$ v_5
内生変数は回帰モデルの基準変数に相当し、回帰式の左辺に置かれる したがって、パス図には内生変数の数だけ回帰式が存在する
したがって、内生変数に刺さった矢印の数はそれぞれの回帰式の右辺の項数を表現している
たとえば図15-2は3本の回帰式と1つの相関係数を同時に表している
$ \begin{aligned} v_3 & = 0.38 \times v_1 + 残差 \\ v_4 & = 0.11 \times v_1 + 0.25 \times v_2 + 残差, \\ v_5 & = 0.10 \times v_2 + 0.45 \times v_3 + 0.25 \times v_4 + 残差, \\ r(v_1, v_2) & = 0.29 \end{aligned}
15.2.3. 共分散構造分析
因子分析とパス解析を同時に行う統合的な分析手法
https://gyazo.com/5676b7ed8c89142c8b99559521ce5c05
共分散構造分析の長所
柔軟なモデル構成力
従来の多変量データの分析手法では固定的な数理モデルにデータの形式を合わせなくてはならなかった
共分散構造分析の登場によりデータ固有のモデルを構成することが可能となった
1つのデータに対して研究仮説を反映した様々なモデルを構成することが可能になった
因子分析やパス解析を含めた共分散構造モデルの母数推定には、最尤推定とベイズ推定を利用できる 本教程では事前分布に一様分布を仮定して学習を進めた
事前分布が一様分布であるならば、共分散構造分析に限らず、最尤推定値はベイズMAP推定値に一致する
15.3. 基準変数の予測
改良の方向
基準変数に対する予測変数の寄与の解釈を容易にする
予測できる現象の範囲を拡大する
予測力を向上させる
15.3.1. コンジョイント分析
予測変数間の関係を積極的に無相関にすることによって、基準変数に対する予測変数の寄与の解釈を容易にする第1の方向で、回帰分析を発展させた手法としてコンジョイント分析と決定木がある 「大腸がんデータ」の重回帰分析で明らかになったように、一般的に偏回帰係数や標準回帰係数の解釈は難しい
たとえば「総熱量」と「大腸がん」の相関係数は$ 0.739であり、「酒類」と「大腸がん」の相関係数は$ 0.588
しかし変数選択の結果、「大腸がん」の予測のために残ったのは「酒類」
また「乳製品」と「大腸がん」の相関係数は$ 0.579であり、正の値であったのに「乳製品」の偏回帰係数は負の値であった
予測変数の数が多い場合には、偏回帰係数の解釈は諦めざるを得ない
解釈の難しさの原因は、予測変数間の相関関係にある
もし予測変数が互いに無相関であるならば、偏回帰係数の大きさが基準変数に対する寄与として解釈できることが知られている
直交表に従って収集されたデータから分析された偏回帰係数は、その大きさを基準変数に対する寄与の大きさとして単純に解釈できる
https://gyazo.com/647b21e516ecc6de24622982d7aeeaf2
「女性にアピールするお見合いパーティ」を企画するためのコンジョイント分析を示した結果
「パーティへの参加の意志」に対する以下の8種の予測変数の影響力を調べる
直交表によって24種類のお見合いパーティを企画し、「絶対参加したくない」「酸化したくない」「やや参加したくない」「どちらともいえない」「やや参加したい」「参加したい」「是非参加したい」の7件法で50人の20代女性に評価してもらった
偏回帰係数(図ではカテゴリースコア)の大きさから「年収」「職業」「年齢」「結婚」「学歴」「喫煙」「場所」「お酒」の順に、選好度に影響していることがわかる
当日の要因である「場所」「お酒」の説明の度合いは少ない
「年収」は高いほうが、「職業」は安定している方が、「年齢」は若いほうが、「結婚」は初婚のほうが、「学歴」は大学卒のほうが、「喫煙」はしないほうが好まれている
観察値と予測値の相関係数は$ 0.784であった
偏回帰係数をそのまま解釈できるのは、直交表を使用したため
15.3.2. 決定木
予測変数の値を分岐させながら樹木を成長させ、モデルの構築を行う
基準変数に対する予測変数の寄与が、IF-THENルールによって記述されるために、分析結果が解釈しやすい
タイタニック号事件のときに乗船していた2201名の「生死」を基準変数とし、「性別」「大人子ども」「等級」を予測変数として決定木による分析を行う
https://gyazo.com/0c380a55ca8fe8dc56f8cb2c102db7ec
ノードには現状が示される
ルートノードには死亡者数が1490人、生還者が711人であることが示されている
ターミナルノード以外のノードでは、IF-THENルールによって分岐が生じる
yesのときは左、noのときは右に移動する
ルートノードに近い予測変数ほど、基準変数の予測に対する寄与が高いと判断する
ターミナルノードには最終判断が示される
たとえばノード11は「男性かつ子どもで3等に乗っていなければ、16人全員生還し、この条件にあてはまるのは全体の約1%である」
15.3.3. ロジスティック回帰分析
予測できる現象の範囲を2値データ迄広げる第2の方向で回帰分析を発展させた手法を紹介する
$ \hat y_i = a + b_1x_{i1} + \cdots + b_jx_{ij} + \cdots + b_px_{ip}
「大腸がんデータ」は国が測定対象だから「人口10万人あたりの死亡者数」という連続した変数を分析できた
しかし添え字が国ではなく、検診の受診者個人である場合には、10年後に大腸がんで死亡しているか否かを観察することになる
したがって基準変数は連続変数とはならず、2値変数となる
$ u_i = \begin{cases} 1 & 1974年までに大腸がんで死亡した場合 \\ 0 & それ以外の場合 \end{cases} \qquad (15.1)
$ p_i = \mathrm{logit}^{-1}(\hat y_i) = \frac{1}{1 + \exp(-\hat y_i)} \qquad (15.2)
逆ロジット関数$ \mathrm{logit}^{-1}(\quad) の定義域は区間$ [-\infty, +\infty] であり、値域は区間$ [0, 1] である
https://gyazo.com/6d25450cabc15157595d3d864aa2ae3b
$ f(u_i|p) = p^{u_i}(1-p)^{1-u_i}, \quad u_i = 0, 1
に従うものとして、母数$ a, b_1, \cdots, b_p, \sigma_eの事後分布を求める
そして生成量$ p_iを受診者$ i個人の死亡リスク(確率)として解釈する
2値の基準変数に対するこのような回帰分析
15.3.4. ニューラルネットワーク
コンジョイント分析と決定木は、基準変数に与える予測変数の影響を解釈しやすくする工夫
それに対して、予測変数の影響の解釈をあきらめる代わりに基準変数の予測力を徹底的に追求した第3の方向のモデル
NNは人工知能の研究過程で発達した人口神経回路モデル https://gyazo.com/0ac50c0e5cbe008b9fe5044d21553000
左から右に順番に情報が伝達される
$ \alphaと$ \beta: 入力層のユニット $ \gammaと$ \deltaと$ \epsilon: 隠れ層のユニット
$ \zetaと$ \etaと$ \kappa: 出力層のユニット
NNに与えられるのは表15-1の「鉛筆データ」
table: 表15-1 「鉛筆データ」
本数 偶奇 ポン ホン ボン
α β ζ η κ
1 1 1 0 0
2 0 0 1 0
3 1 0 0 1
4 0 0 1 0
5 1 0 1 0
6 0 1 0 0
7 1 0 1 0
8 0 1 0 0
9 1 0 1 0
10 0 1 0 0
「本数」「偶奇」が予測変数であり、「ポン」「ホン」「ボン」が基準変数
入力層と隠れ層の関係
$ \hat y_\gamma = a_{\gamma\alpha}\alpha + a_{\gamma\beta}\beta, \quad \hat y_\delta = a_{\delta\alpha}\alpha + a_{\delta\beta}\beta, \quad \hat y_\epsilon = a_{\epsilon\alpha}\alpha + a_{\epsilon\beta}\beta
次に隠れ層のユニット内部で以下のように変換される
$ p_\gamma = \mathrm{logit}^{-1}(\hat y_\gamma), \quad p_\delta = \mathrm{logit}^{-1}(\hat y_\delta), \quad p_\epsilon = \mathrm{logit}^{-1}(\hat y_\epsilon)
最後に以下によって読み方が予測される
$ \zeta = 「ポン」 = b_{\zeta\gamma} \times p_\gamma + b_{\zeta\delta} \times p_\delta + b_{\zeta\epsilon} \times p_\epsilon,
$ \eta = 「ホン」 = b_{\eta\gamma} \times p_\gamma + b_{\eta\delta} \times p_\delta + b_{\eta\epsilon} \times p_\epsilon,
$ \kappa = 「ボン」 = b_{\kappa\gamma} \times p_\gamma + b_{\kappa\delta} \times p_\delta + b_{\kappa\epsilon} \times p_\epsilon
隠れ層のユニット数を増やすことによって、複雑な関係式を表現することができ、予測力が向上する
添字付きの$ aと$ bがNNの母数であり、その値をデータから定めrうことは、統計モデルの観点からは推定といった
15.4. その他の有用な心理統計法
心理テスト・入学試験・資格試験などのテストを企画・作成・運用・評価するための数理モデル
IRTは比較的大規模な試験を扱うために利用される
重要な研究テーマは1つの論文や研究で決着がつくことは期待できない
複数の研究を統合し、母数の確信区間を狭め、確実性の高い結論を導く必要が生じる
統計的な分析を統合する時に有効な統計手法
https://gyazo.com/af280078596e4fe7c2229222913c39d2
上述した項目反応理論でも逆ロジット関数が多用されている
逆ロジット関数は、リンク関数と呼ばれる写像関数の一種 さまざまなリンク関数を用い、ベルヌイ分布以外の多くの確率分布に回帰式をリンクさせることが可能
GLMMを拡張し、事前分布に含まれる母数の事前分布を導入するなどして、さらに広範囲なモデル表現を可能にする手法
心理統計法の入門段階の有意性検定はベイズ的アプローチで代替される
そしてGLMMやBHLMなど、上級の統計モデルでは、ベイズ的アプローチでしか解が求まらないことも珍しくない
心理統計法は遠からず、全般的にベイズ的アプローチが主流となる時代を迎えるだろう